FlagEval 10月榜:新增Aquila2-34B、InternLM-20B、Qwen-14B等模型
Highlight:
-FlagEval 评测方式解读:采用“自由生成式”评测,严格评估模型的答案生成能力、上下文理解能力和指令跟随能力。
-FlagEval 10月榜单发布,新增Qwen-14B、Aquila2-34B、InternLM-20B等模型评测。
FlagEval 评测方式解读
当前针对生成式模型的客观评测方式主要分为两类,我们称之为“选项概率式”和“自由生成式”,后者是真正让模型生成答案内容,由真正生成的答案内容来判断模型的上下文理解能力、和指令跟随能力。相比起“选项概率式”,“自由生成式”评测方式更加符合AIGC生成式大模型,尤其是对话模型的用户使用场景。
因此,FlagEval 大语言模型评测平台在基座模型和对话模型客观评测均采用了“自由生成式”的评测方式。
FlagEval 评测平台:
https://flageval.baai.ac.cn/
1、 “选项概率式”评测
让模型先拼接“问题+答案”,模型计算各个拼接文本的概率后,验证概率最高的答案与正确答案是否一致,若一致则判断模型回答正确。评测过程中模型不会生成任何内容,而是计算选项概率。
2、“自由生成式”评测
严格按照“模型在问题输入下自由生成的答案”进行评判,这种方式源自2022年底斯坦福大学的工作 — Holistic Evaluation of Language Models(HELM)[1],它对于模型的上下文学习和指令跟随能力要求更为严格。实际评测过程中,部分对话模型的回答如果不符合指令要求,可能会出现“0”分的情况。
例如:根据指令要求,正确答案为1个字母“A”,如果模型生成为“B”或“答案是 A ”(与正确答案的格式不相符),都会被判为“0”分。在HELM官方发布的评测结果中也存在“0”分或近似“0”分的情况[2]。
注:
[1]https://crfm.stanford.edu/helm/latest/
[2]https://crfm.stanford.edu/helm/v0.2.2/?group=core_scenarios#Accuracy
FlagEval 大语言模型评测体系建立的初衷是“以评促优”,希望模型研发团队能以评测结果为参考,进一步发现模型问题、优化模型性能。如果模型在“生成式”评测方式下出现答案生成的问题而导致分数很低,我们会将生成错误的情况反馈给模型研发团队,在月度榜单中暂缓展示该模型的排名结果。
FlagEval 10月排行榜
评测说明:
1. 如上文所述,以下所有评测均为“自由生成式”评测,参考斯坦福大学HELM工作。
2. Chinese_MMLU是MMLU的汉化版本,先经过机器翻译再人工校正获得,FlagEval 评测平台采用其中五个学科的测试题,涵盖了人文社科、自然科学以及其他重要领域的知识。
基座模型榜单
本期基座模型榜单中, Aquila2-34B、Qwen-14B、InternLM-20B 位列前三。Aquila2-34B、Qwen-14B 的中文、英文评测得分差距小于 1%,中英文能力均衡,不“偏科”。
SFT 模型榜单
本期SFT模型榜单,新增AquilaChat2-34B、AquilaChat2-7B评测,其中 AquilaChat2-34B 在主观、客观评测中均排名第一。
FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。
FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。
悟道天鹰Aquila2-34B系列模型 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验!
https://github.com/FlagAI-Open/Aquila2
使用方式二:通过 FlagOpen 模型仓库单独下载权重https://model.baai.ac.cn/
使用方式三:通过HuggingFace加载 Aquila 系列模型https://huggingface.co/BAAI